home *** CD-ROM | disk | FTP | other *** search
/ Internet Info 1997 December / Internet_Info_CD-ROM_Walnut_Creek_December_1997.iso / ietf / urn / urn-archives / urn-ietf.archive.9611 / 000148_owner-urn-ietf _Wed Nov 13 14:57:11 1996.msg < prev    next >
Internet Message Format  |  1997-02-19  |  6KB

  1. Received: (from daemon@localhost) by services.bunyip.com (8.6.10/8.6.9) id OAA10723 for urn-ietf-out; Wed, 13 Nov 1996 14:57:11 -0500
  2. Received: from mocha.bunyip.com (mocha.Bunyip.Com [192.197.208.1]) by services.bunyip.com (8.6.10/8.6.9) with SMTP id OAA10718 for <urn-ietf@services.bunyip.com>; Wed, 13 Nov 1996 14:56:58 -0500
  3. Received: from josef.ifi.unizh.ch by mocha.bunyip.com with SMTP (5.65a/IDA-1.4.2b/CC-Guru-2b)
  4.         id AA13771  (mail destined for urn-ietf@services.bunyip.com); Wed, 13 Nov 96 14:55:22 -0500
  5. Received: from ifi.unizh.ch by josef.ifi.unizh.ch 
  6.           id <01921-0@josef.ifi.unizh.ch>; Wed, 13 Nov 1996 20:54:22 +0100
  7. Subject: Re: [URN] Please avoid "URNs are"
  8. To: moore@cs.utk.edu (Keith Moore)
  9. Date: Wed, 13 Nov 1996 20:54:21 +0100 (MET)
  10. Cc: moore@cs.utk.edu, Harald.T.Alvestrand@uninett.no, Dirk.vanGulik@jrc.it,
  11.         FisherM@is3.indy.tce.com, girod@LCS.MIT.EDU, tallen@fsc.fujitsu.com,
  12.         urn-ietf@bunyip.com
  13. In-Reply-To: <199611131905.OAA15428@ig.cs.utk.edu> from "Keith Moore" at Nov 13, 96 02:05:06 pm
  14. Mime-Version: 1.0
  15. Content-Type: text/plain; charset=US-ASCII
  16. Content-Transfer-Encoding: 7bit
  17. Content-Length: 4344
  18. From: Martin J Duerst <mduerst@ifi.unizh.ch>
  19. Message-Id: <"josef.ifi..262:13.10.96.19.54.32"@ifi.unizh.ch>
  20. Sender: owner-urn-ietf@services.bunyip.com
  21. Precedence: bulk
  22. Reply-To: Martin J Duerst <mduerst@ifi.unizh.ch>
  23. Errors-To: owner-urn-ietf@bunyip.com
  24.  
  25. Keith Moore wrote:
  26.  
  27. >> >> PLEASE avoid saying "URNs are XXX". Please use wording such
  28. >> >> as "URNs are noted on paper as XXX", "URNs are represented
  29. >> >> on computers in the following forms...", or "URNs represent
  30. >> >> characters from the following set..." or whatever.
  31. >> >
  32. >> >I'm not sure how much difference it makes.  RFC 1737 requires
  33. >> >the following:
  34. >> >
  35. >> >   o Single encoding: The encoding for presentation for people in clear
  36. >> >     text, electronic mail and the like is the same as the encoding in
  37. >> >     other transmissions.
  38. >> 
  39. >> This requirement makes sense in the sense that the number of different
  40. >> representations and encoding should be as low as possible.
  41. >
  42. >I hope that "as low as possible" is equivalent to "one".
  43.  
  44. Well, with EBCDIC and ASCII, you will certainly have two :-).
  45.  
  46. >> But it does not say anything about how URNs are noted on paper. 
  47. >
  48. >No it doesn't.  But it seems reasonable to expect that people will
  49. >transcribe URNs from their screens to paper, and from that paper to
  50. >keyboard.  The result of doing so had better produce the same URN.
  51.  
  52. Of course. Modulo some problems of the kind of O/0 and l/1/I, it
  53. will, for all of i18n.
  54.  
  55. >Also, we can't assume that the transcription of a URN from paper to
  56. >keyboard will be through an intelligent tool that understands how to
  57. >translate URNs from display format to some other format.
  58.  
  59. You need a reasonably intelligent human user, of course. As for
  60. keyboarding tools, in the worst case you would need a Unicode
  61. book (cheaper than most keyboards themselves, but unfortunately
  62. heavy), a piece of paper, and a code table for the 16 hex digits.
  63. As an alternative, I suggest some nice site programmed in Java,
  64. or whatever.
  65.  
  66. >A URN could
  67. >certainly be sent via email, transcribed to paper, and typed back into
  68. >plain text email by someone else.
  69.  
  70. For Japanese postal transfer accounts, that would work without
  71. problems, even if the Kanji character appears as such, and not
  72. mutilated to some ASCII-compatible form.
  73. The only thing you have to make sure is that if you cut/paste
  74. something from/to your URN field in a browser, the underlying
  75. encoding is changed appropriately (from ISO-2022-JP in the case
  76. of email to UTF-8, with or without the additional %HH depending
  77. on what is needed). Browsers such as Netscape do conversions
  78. correctly in other instances, so I have no doubt they would
  79. get it right as soon as they know what to do.
  80.  
  81.  
  82. >For grandfathering other URN schemes, non-universal characters will
  83. >need to be converted into sequences of universal characters.
  84.  
  85. International standards use the term "universal character set"
  86. to denote an encompassing set of characters. In order to avoid
  87. misunderstanding by less informed readers, why not use
  88. "greatest-common-denominator characters" or GCD characters
  89. for short.
  90.  
  91.  
  92. >That way
  93. >there can be a well-defined conversion from {j.random.naming.scheme}
  94. >to URN, but only one format for the URN once it's converted.  It's
  95. >fine if smart software recognizes certain types of URNs and undoes the
  96. >conversion, so long as the unconverted form is displayed as an
  97. >identifier from {j.random.naming.scheme} and NOT as a URN.
  98.  
  99. We have been at this point before. It is mainly a naming issue,
  100. and to some extent a protocol encoding issue. You are requesting
  101. that things that don't appear %HH-encoded, but with the origina
  102. characters they represent, are not called URNs. You are also
  103. requesting that there be no 8-bit transfer form.
  104.  
  105.  
  106. >As for URNs encoded in EBCDIC: we should probably define URNs as
  107. >sequences of characters,
  108.  
  109. Here wording really matters. To be clear, it is best to say that
  110. URNs are *represented by* sequences of characters. They *are*
  111. abstract, permanent identifiers or something along these lines.
  112.  
  113. >which can be represented in any character
  114. >encoding scheme, so long as:
  115. >
  116. >+ that encoding scheme is clearly labeled (e.g. MIME charset) whenever
  117. >multiple encodings can appear in the same context, and
  118. >
  119. >+ there is a unique encoding in that scheme for each character that 
  120. >can appear in a URN.
  121. >
  122. >So URN character sequences could be encoded in ASCII or EBCDIC or
  123. >UCS-32 or whatever and still be URNs.
  124.  
  125. A small detail: What you mean by UCS-32 is called UCS-4. It might have
  126. been called UCS-31, but not UCS-32, because in the 4-byte form, the
  127. uppermost bit (sign bit) is not used.
  128.  
  129.  
  130. Regards,    Martin.
  131.  
  132.